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METOD OCH ANORDNING FOR FORBATTRING AV EFFEKTIVITET OCH KVALITET HOS 
LJUDKODARE 



teknikomrAde 

Forcliggandc uppfinning beskriver metoder och teknik for forbattring av kodningseffektivitet och 
ljudkvalitet hos ljudkodare och speciellt vid forbattring av ljudkodare som anvSnder SBR-teknik 
(Spectral Band Replication), en ny teknik som utnyttjar spektralredundans hos ett exitationsspektrum, 
enligt patcntansokningama Sv Pat 9800268-6 och PCT WO 98/57436. SBR-tekniken ger en markant 
forbattring av kodningseffektiviteten genom bandbegransning av signalen vid kodning foljt av 
bandbredds5kning vid avkodning. SBR-tekniken kan utforas antingen som en blind process i 
avkodaren. SBR-1, eller med hjalp av styrinfonnationen, i form av spektralenvelopper som skickas 
fran kodaren till avkodaren, SBR-2. Foreliggande uppfinning beskriver ett generellt och effektivt satt 
att koda och justera spektralenvelopper. Vidare beskrivs nya tekniker. metoder och fdrbattringar i de 
tillampningar dar SBR-teknikens utnyttjas. Uppfinningen kan anvandas exempelvis inom olika typer 
av effektiva kodare s5som MPEG 1/2 Layer I/II/III, MPEG 2/4 AAC, Dolby AC-3, NTT TwinVQ, 
AT&T PAC, CCITT/ITU-R G.722 m.fl. samt till olika former av talkodare och vid konstruktion av 
nya kodare. 

UPPFINNINGENS BAKGRUND OCH TEKNIKENS STANDPUNKT 

En linjar PCM signal med CD-kvalitet har 44.1 kHz samplingsfrekvens och 16 bitars upplSsning vilket 
ger ett bitflode av 141 1 kbit/s for en stereosignal. For att reducera bitflodet anvands psykoakustiska 
kodare vilka utnyttjar begransningar i det manskliga horselsinnet, sk irrelevans- och redundans- 
kodning. Harvid kan mer an 90% av informationsmangden i en vanlig CD elimineras utan att 
lyssnaren upplever nSgon fdrsamring av ljudkvaliteten. Mycket hog ljudkvalitet kan darigenom 
erhallas vid c:a 128 kbit/s. Vid lagre kvalitetskrav kan den basta kodningstekniken i dag Sterge tal och 
musikinformation med begrSnsad ljudkvalitet vid c:a 24 kbps i mono. Vid mycket 14ga bitfloden 
erhSUs viss distorsion och begransad bandbredd. 

Inom audiokodning delas signalen vanligtvis upp i tvS komponenter, en 
spektralenveloppsrepresentation och en tillhOrande residualsignal. I bitstrommen utgor 
residualsignalen huvuddelen av informationsflodet och spektralenveloppen en betydligt mindre del. 
Vid liga bitnoden minskar detta forhallande varfOr det ar extra viktigt att kunna overfora 
spektralenveloppen pa ett kompakt satt. Foreliggande patent uppvisar metoder som ger stora 
fdrbattringar inom detta omride. 
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Spektralenveloppen ar en funktion av tvi variabler, tid och frekvens. Kodning kan utforas i 
frekvensled eller i tidsled i det tvadimensionella tid/frekvensplanet. Vanligtvis kodas 
spektralenveloppen i frekvensled (tex PCM, DPCM, LPC eller vektorkvantisering) vid diskreta 
5 tidpunkter. 

Inom "natural-audio" kodning anvands ofta DPCM vid kodning av spektralenveloppen. DPCM 
kodningen anvander vanligtvis inte nagon prediktion som ar brukligt i DPCM-sammanhang, utan man 
kodar skillnaden i amplitud mellan narliggande frekvensvarden (skalfaktorer). inom applikationer dar 

10 l§g bitrate anvands tillsammans med SBR oppnar sig nya mojligheter for kodningen av 

spektralenveloppen over det frekvensintervall som Sterskapas. Detta for att spektralenveloppen som 
skickas kan betraktas mer som styrdata till SBR processen, an bara enveloppen av en signal. Inom t.ex. 
MPEG Layer 1,2 anvands 6 bitars linjarPCM kodning av skalfaktorema, detta motsvarar 
approximativt 1 .5 dB steg och ger darfor en dynamik av 96dB. I t.ex. Dolby AC3 anvands 

15 differenskodning av skalfaktorema, dock utan prediktion. Den forsta skalfaktom for det lagsta 

subbandet skickas som ett linjart PCM varde varefter de foljande (okande i frekvens) beraknas som 
skillnaden till den angransande lagre skalfaktom. 

Vid filtrering av residualen vid talkodning anvands ofta linjar prediktion (LPC). For att na hogsta 
20 kodningseffektivitet kan filterbandbreddema relateras till manskliga horselns frekvensupplosning. Vid 
"natural -audio" kodas spektralenveloppen oftast m h a mingkanaliga filterbankar. Vanligen anvands 
filterbankar med konstant bandbredd varvid filterkanalema grupperas med bark-upplosning. Det fmns 
aven filterbankar med konstant relativ bandbredd. Inom talkodningen anvands "Bark-warped LPC", 
vilken aven kan anvandas med SBR. 

25 

Inom de fiesta kodningsmetoder extraheras spektralenveloppsinformationen blockvis. Aldre 
kodningssystem anvander konstant blocklangd som ger god temporal upplosning. Detta ger hog 
kodningskostnad. For att forbattra kodningseffektiviteten byter modema kodare blocklangd beroende 
av programmaterialets innehall. Langa block anvands for att koda kvasistationara signaler och korta 
30 block anvands for att fa hog temporal upplosning vid transienta fbrlopp. Uppfinningen beskriver en ny 
och battre metod for skalfaktorgruppering i kombination med en indexering som medger kompakt 
signalering av blockindelningen. 
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Vid stereokodning anvands summa/differenskodning (aven benamnd M/S-kodning) eller 
intensitetsstereokodning. Foretradesvis anvands summa/differenskodning denna erbjuder storre 
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flexibilitet och ljudkvalilet an intensitetsstereo. Vid extremt l^g bithastighet maste programmatenalet 
nedsamplas i kodaren vilket ger begransad audiobandbredd. SBR-tekniken anvands med fordel for att 
utoka denna. Da SBR-tekniken normalt anvands i stereo, d v s separat for bade (L och R) eller forbad, 
summa (L+R) och differenskanalema (L-R) kraver kodning av enveloppema en dubblering av 
5 spektralenveloppinformationen for SBR. Foreliggande uppfinning beskriver nya metoder for att 
fbrbattra stereokodningen. 



SAMMANFATTNING AV UPPFINNINGEN 
1 0 Milet med uppfinningen ar att erbjuda nya metoder och anordningar for att oka kodningseffektiviteten 
eller audiokvaliteten i ett kodningssystem for digital audio. Uppfinningen avser huvudsakligen att 
fbrbattra kodningseffektiviteten och kvaliteten av SBR-uppbyggda kodare. Delar av uppfinningen kan 
aven appliceras i andra kodningssammanhang. 

1 5 Uppfinningen beskriver en ny metod att gruppera subbandssampler i tid och frekvens vid generering 
av skalfaktorer for enveloppskodning. For vaije grupp om T sampler i tid och F sampler i frekvens 
beraknas en skalfaktor, vilken representerar t ex medeleffekten i denna region. Vid kvasistationara 
signaler anvands stora varden pa T och sma varden pa F varvid god frekvensupplosning erhalles. I 
kodaren finns en transientdetektor med vars hjalp transienters positioner faststalls. T omedelbar 

20 anslutning till transientens start, paborjas en ny grupp med ett litet varde pa T. Denna foljs av 

ytterligare en eller flera grupper med smk varden pa T. Pa detta vis kodas transientens starttidpunkt 
och utklingingsforlopp med god tidsupplosning. For att kompensera datamangdsokningen harrorande 
fran minskningen av T, valjs storre F for dessa grupper. Uppfinningen beskriver hur gruppindelningen 
kan signaleras med fa kontrollbitar. Skalfaktorema sammanfors till granuler vilka sands med en 

25 konstant uppdateringsfrekvens. Transientemas starttidpunkter beskrivs med ett index som anger 

positionema inom dessa granuler. Eftersom sandare och mottagare forfogar over regler som beskriver 
hur grupperingen skall ske vid ett givet index, racker det att skicka detta index samt en transientflagga 
for en entydig avkodning av enveloppen. 

30 Uppfinningen utnyttjar vidare en ny typ av kodning av skalfaktorema. Denna ar baserad pa en iterativ 
analys-genom-synteskodning av enveloppema i bdde tids- och frekvensled. Eftersom en signal inte 
kan vara belt transient i bade tidsdomanen och frekvensdomanen vid en given tidpunkt, kan 
kodningseffektiviteten vid anvandandet av alia typer av deltakodning av spektralenvelopper okas 
genom att adaptivt vaxla mellan att koda spektral enveloppen i tids eller frekvensled. 
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Vid SBR anvands ofla en kombination av flera transponenngsfaktorer. En metod att utnyttja 
enveloppsjusterarens analyssida for adaptiv nivSjustering mellan de olika deltonsordningama beskrivs. 

Om inga begransningar for enveloppsjusterarens forstarkningsfaktorer infers, innehiller det 
5 replikerade hogbandet under vissa omstandigheter icke onskvarl smalbandigt brus. Uppfinningen visar 
ett effektivt satt att medelst brusgrindar eliminera detta, utan att replikeringcn i ovrigt pavcrkas. 

For att minimera bitflodet anvands storsta mojliga bandbredder pa skalfaktorema. Uppfinningen 
bcskriver hur skalfaktorema kan interpoleras i frekvens och enveloppsjusteringen operera med dessa 
10 smalare bandbredder. Harvid uppnas en storre kontroll over det replikerade hogbandets spektrum och 
en effektivare funktion hos brusgrindama. 

En frekvensdomanstransponeringsalgoritm baserad pa anvandandet av filterbankar eller transformer 
med variabla bandbredder beskrivs. 

15 

En forstarkningsfaktorsutjamning for att undvika ringning och vikning i filterbanken som anvands for 
enveloppsjustering beskrivs. 

Vid SBR kan filterbanksbaserade transponerare anvandas. Uppfinningen beskriver ett satt att 
20 minimera for- och efterekon hos dessa, m h a oversampling i frekvensdomanen. 

Ett fbrbattrat satt att avkoda stereoinformation med SBR beskrivs. 

25 

KORTFATTAD BESKRIVNING AV RITNINGARNA 

Foreliggande uppfinning kommer nu att beskrivas med hjalp av exempel med tillhorande ritningar, 
30 vilket ej skall uppfattas som begransningar av uppfinningens utforande, dar: 

Fig. 1 illustrerar ekvidistant tidsindelning av skalfaktorer. 

Fig. 2 illustrerar icke-ekvidistant tidsindelning av skalfaktorer. 

Fig. 3 illustrerar anvandandet av indexeringsinformation for granulsegmentering. 

Fig. 4 illustrerar enveloppskodning i tids- och frekvensled. 
35 Fig. 5 ar ett flodesschema over T/F-algoritmen. 



Fig. 6 illustrerar avkodarsystemet. 

Fig. 7 illustrerar uljamning av forstarkningsfaktorer. 

Fig. 8 illustrerar patclining utan respektive med frekvensdomansoversampling. 
Fig. 9 illustrerar tillvagagangssatt vid nollpaddning i en filterbank for transponering. 
5 Fig. 10 illustrerar patcher vid fix respektive variabel bandbredd. 

Fig. 1 1 illustrerar tids och frekvensupplosning i en icke-ekvidistant filterbank. 
Fig. 12 illustrerar kodaren. 

DETALJERAD BESKRIVIMING AV FOREDRAGNA UTFORINGSFORMER 
10 Ljudkodning delas vanligen upp i tva kategorier. talkodning och "natural-audio" kodning. Talkodning 
ar oftast parametrisk vilket innebar att den ar optimerad for tal. "Natural-audio" kodning ar icke- 
parametrisk vilket medfor att valfritt ljud kan kodas. Den foreliggande nya metoden for 
spektralenveloppskoding eller skalfaktorgenerering bar framtagits speciellt med tanke pa SBR- 
tillampningar, men kan framg^ngsrikt anvandas for traditionell subbandskodning eller inom andra 
15 kodningssammanhang, t ex talkodning, dar en effektiv representation av spektralenveloppen ar 

onskvard. Dctta inkludcrar avcn applikationer uppbyggda kring SBR-1 konceptet, dvs system dar 
spektralenveloppen inte overfdrs utan istallet estimeras i mottagaren med tex asymptoter, kodbocker 
baserade pa vektorkvantiserade envelopper, system med sk "Statistical Recovery Functions" 
["Statistical Recovery of Wideband Speech from Narrowband Speech",Cheng et al, IEEE Transactions 
20 On Speech and Audio Processing, Vol. 2, No 4, October 94] etc. Aven dessa system kan med fordel 
anvanda nedan beskrivna interpolenng i tid och frekvens, brusgrindning samt icke-uniform sampling 
av spektralenvelopper. 



I konventionella subbandskodare delas subbandsignalema upp i skalfaktorer och skalade 
25 subbandssignaler vid analysen i kodaren. Denna uppdelning kan ske pa manga olika satt, och flera 
kanaler kan anvanda en gemensam skalfaktor. Gemensamt for alia systemen ar att saval skalade 
subbandsampler som tillhorande skalfaktorer overfbrs och kombineras p^ nagot satt vid syntesen i 
dekodem. Vid SBR ar detta inte fallet, endast signalens spektrala grovstruktur behdver overforas, 
vilket hos vissa kodare skuUe moisvara overforing endast av skalfaktorema. Detta staller nya, hardare 
30 krav p^ hur skalfaktorema genereras eftersom inga skalade subbandsampler, uppbarande information 
om sm^skaliga tidsforlopp, finns att tillgi. Problemaliken belyses med ett exempel: 

I fig. 1 visas tid-/frekvensrepresentationen av en musiksignal dar en organist spelar uthallna ackord 
och en trumslagare ackompanjerar p^ en hi-hat. I lagbandet har orgeln hog energi och hi-haten lag, 
35 medan fbrhSllandet i hogbandet ar det omvanda. De skalfaktorer som genereras inom de tidsintervall 



dar hi-haten ar narvarande, domineras av dennas hoga intermittenta energi. Vid SBR-processen i 
dekodem estimeras enveloppen hos den transponerade signalen synkront med den kodade 
originalenveloppen, med samma tids- och frekvensupplosning, fig 1 . Forstarkningsfaklorema hos 
filterbanken for enveloppsjustering erhalles ur kvoten mellan de bada estimaten. Harvid uppstar for 

5 denna typ av signal ett problem: Den transponerade signalen bar samma energiforhallande mellan hi- 
hat och orgel som lagbandet. De forstarkningar som kravs for att styra den transponerade hi-haten till 
ratt niva orsakar darfor att den transponerade orgeln forstarks i fdrhillande till dess ursprungliga 
hogbandsniva under den flilla durationen hos den skalfaktor som innehaller hi-hat energi. Denna 
momentant alltfor starka orgel upplevs som for- och efterekon till hi-haten. Denna typ av distorsion 

10 kallas skalfaktorinducerat eko. Detta fenomen kan elimineras genom att skalfaktorema uppdateras sa 
ofta i tiden att tillrackligt kort tid mellan uppdatering och transient garanteras for godtyckligt 
lokaliserade transienter. Ett sidant forfarande skulle forstis avsevart oka datamangden och ar s^lcdcs 
opraktiskt. 

15 Darfor visas ett nytt system som medger en flexibel skalfaktorgenerering och loser ovanstaende 

problem utan att overflodiga data genereras, under anvandande av ett minimum av kontroll signaler. 
Principlosningen ligger i att bibehMla en \hg samplingsfrekvens av enveloppen under tonala passager, 
vilka utgor merparten av ett normalt programmaterial, och att m h a en transientdetektor i kodaren 
faststalla tidpunktema for transientema och uppdatera skalfaktorema i omedelbar narhet till dessas 

20 "framkant" eller startflank, se fig. 2. Detta eliminerar skalfaktorinducerade fbrekon. For att val 
reproducera transientens utklingningsfdrlopp, okas uppdateringsfrekvensen temporart under ett 
tidsintervall efter transientens start. Detta eliminerar skalfaktorinducerade efterekon. 
Tidssegmenteringen under utklingningen ar inte lika kritisk som nar det galler att finna transientens 
start, eftersom horselsinnets temporala postmaskering ar storre an dess premaskering, I syfte att 

25 kompensera den okade datamangd detta forfarande medfor, reduceras samplingstatheten i frekvens 
under trans ien ten. 



Notera att denna varierande sampling i tid och frekvens utfbrs genom att subbandsamplema fran en 
och samma filterbank grupperas pa olika vis. Variabel skalfaktorupplosning i tid och frekvens 

30 forekommer aven hos vissa konventionella subbandskodare. Skillnaden hgger dari att dessa dels 
vaxlar (mellan olika grupperingar) enligt andra knterier, dels i allmanhet ocksa byter storlek p^ 
filterbanken. En sadan andring av storleken kan inte ske omedelbart utan maste ske m h a s k 
overgangsfdnster, varfbr uppdateringstidpunktema inte kan valjas lika fritt som om filterbanken forblir 
ofbrandrad. Vidare onskas vid SBR en relativt detaljerad kodning av enveloppen hos de tonala 

35 signalema anda fi-am till det ogonblick transienten intraffar. Aven detta krav tillgodoses genom att 
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fillerbankstorleken h^lls konstant eftersom vid varje tidpunkt denna banks goda upplosning i frekvens 
finns att tillg^. 



For att avkodaren skall veta hur skalfaktorema bar grupperats, kravs nagon form av signalering. Derma 
5 maste vara flexibel nog att tacka alia kombinationer av intresse, utan att generera en alltfbr stor mangd 
styrdata. Typiska kodare arbetar pa en blockbasis, diir varje block motsvarar ett fixerat tidsintervall. 
Om en icke-uniform sampling enligt fig. 2 skall kunna realiseras i ett sadant system, miste alltsa aven 
problemet med segment som spanner over blockgransema hanteras. En ny metod for indexering av 
transienter samt implicit signalering av de olika grupperingsfallen beskrivs nu. 

10 

Antag att ett block uppdelas i 2^ underblock i tid. Positionen for ett underblock kan da anges med 
bitar. En bit atgir for att signalera forekomsten av en transient inom ett block och A^bitar for att ange 
positionen i underblock for denna transient. Dessa varden anvands tillsammans med varden fran 
tidigare block for uppslagning i en tabell som anger hur aktuellt block skall indelas. Om bade kodare 

15 och avkodare forfogar over samma tabell over skalfaktoremas frekvensupplosning samt en uppsattning 
regler for hur segmenteringen enligt ovan sker vid givna transientpositioner, racker dessa tva signaler 
for en entydig avkodning, Vid tillampningar dar man kan tillata en viss fordrojning kan man lata 
trans ientdetektom arbeta i forvag innan man med tabellen bestammer indelningen av aktuellt block. Pa 
detta satt kan man ocksa gora tidsindelningen mindre beroende av de naturliga gransema mellan 

20 konsekutiva block. Betrakta blocket i fig. 3a som ar uppdelat i itta underblock. Fyra underblock fran 
ett tidigare samt nastkommande block beaktas ocksa. Transientdetektom, som arbetar med samma 
upplosning men ett halvt block i forvag, fig. 3b, har tidigare (vid tiden n-1) pavisat forekomsten av en 
transient i underblock 2, vilket motsvarar underblock 6 i block n-1 . 1 aktuellt block har en transient 
detekterats i underblock 3 (motsvarande underblock 7 i block n). Med dessa positioner som 

25 ingangsvarden till tabelluppslagningen f^s som exempel att block n skall indelas som visas i fig. 3c. 
Block n-1 har tidigare bearbetat det 6:e transienta underblocket, men lamnat det 7:e underblocket, 
vilket tas om hand i block n. Forutom den uppenbara fbrdelen med att tillata segment som spanner 
over blockgransema, kan detta system underlatta uppfyllandet av vissa kriterier, sisom tex kravet att 
bitflodet for enveloppsdatat skall vara konstant. 

30 



Inom Fourieranalysen ar fbljande samband valkanda: 

5[5 (t)]= 1 
^[1] =27t5(ca) 



Vilket innebar att en puis i tidsdomanen motsvaras av ett flackt spektrum i frekvensdomanen, och en 
''puis" i frekvensdomanen motsvaras av en stationar signal i tidsdomanen med en frekvens 
motsvarande pulsens lage i spektrat. Detta kan tolkas som att en signal aldrig kan vara transient i tva 
domaner samtidigt. Ovanstiende samband kan med fordel utnyttjas inom kodning av 
spektralenvelopper eftersom en tonande stationar signal kan ha ett mycket spretigt frekvensspektrum 
icke lampat for deltakodning i frekvensled, samtidigt som spektralenveloppen inte andras markbart i 
tid. Detta illustreras i fig, 4. 

I en implementation av den foreslagna uppfinningen anvands AJDPCM-kodning for att koda 
skalfaktorema. Denna kodning anvander en fast prediktor i form av tv^ uppslagstabeiler, en 
indextabell och en stegtabell. Detta gor att algoritmen kan implementeras mycket berakningeffektivt, 
vilket gor en iterativ analys- genom-syntes kodning mojiig. 1 motsats till den DPCM kodning som 
anvands i Dolby AC3 kodas har inte skillnaden i niv§ mellan skalfaktorema utan en indexskillnad i 
den tabell dar amplitudvardena fmns tabellerade, stegtabellen. 

Foljande cxempel kommer att anvandas for att forklara uppfinningens natur utan att for den skull 
begransa den. Vidare kommer i den foljande utlaggningen spektralenveloppen representeras av en 
vektor med skalfaktorer vid tidpunkten nQ 

Y(k,noMai, a2, 33, ...^a^, ...,3^], 
dar a] ...ajsj ar enveloppens amplitudvarden vid olika frekvenser. Det vanliga angreppssattet ar att 
koda skillnaden mellan narliggande varden vilket ger en vektor 

D(k,no)=[a2-ai ,a3-a2, . • . .3^-3(^.1)]. 
For att kunna avkoda denna kravs aven att startvardet a\ skickas med. Som namndes ovan kan detta 
visa sig mycket ineffektivt om spektrat innehaller endast ett par stationara toner eftersom det dk fkr en 
mycket transient natur. Detta kan gora deltakodningen i frekvensled dyrare an vanlig PCM kodning. 
For att komma tillratta med det problemet foresl^s har en switchad kodning, som kodar b^de i tids- 
och frekvensled och beraknar kodningsfelet i bada riktningar for ett givet antal bitar, och avgor pi sh. 
satt vilken riktning som ar mest fordelaktig att koda i. 

Den foreslagna algoritmen, harefter kallad T/F-kodning, ar en iterativ analys-genom-syntes-algoritm. I 
en DPCM implementering beraknas tva delta vektorer, Df och D^: 

Df (k,no)=[a2-a 1 ,ay&2^ . . . ,aN-a(N- 1 )] 

Dt (k,no)=[a 1 (no)-a ] (nQ- 1 ),a2(no)-a2(no- 1 ), ■ • - ,aN("0)-aN(^- ^ )] 
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Dessa kodas med lika minga bitar per varde, varefter de avkodas. Felvektorer beraknas for de tva 
kodningsvariantema 

Ef<k,no)=[ei , e2,-- eN]=Y(k, no)-Yfest(k, hq) 
Et(k, no)=[ei, e2,..., eN]=Y(k, no)-Ylest(k, hq) 
5 Ett skalart varde pa kodningsfelet, eller spektraldistorsionen, kan beraknas pa flera olika satt: antingen 
anvands maxawikelsen inom nagot frekvensband eller ett medelfel over alia kodade skalfaktorer. 

distifto) = maxi^^j£'(/r,/2o| 
1 ^ 

i//5r(/2o) = — ^|£(/:,/2o)| 
Den kodade-avkodade vektor med det minsta felet representerar den mest fordelaktiga riktningen att 
koda spektralenveloppen i vid den givna tidpunkten. Om felet understiger det av kodaren forbestamda 
10 maxfelet skickas den kodade enveloppen, annars okas bitantalet med vilken enveloppema kodas och 
proceduren upprepas tills maxfelet understigs eller tillStet max antal bitar uppnatts. Proceduren 
beskrivs i flodesschemat i fig. 5. 

I den nuvarande implementeringen anvands ADPCM-kodning, det skall dock beaktas att alia sorters 

15 differenskodning med fordel kan anvandas i den foreslagna T/F-kodningsalgoritmen. Vid kodning 

med ADPCM kan man lita antalet bitar som anvands for att koda skalfakorema variera pi skalfaktor- 
eller enveloppsbasis. Bada variantema bar sina for och nackdelar som beskrivs nedan. Anvands 
konstant antal bitar kan tabellema som anvands for ADPCM kodningen utformas mer optimalt. Dctta 
innebar att ett indexdelta for fyra bitars ADPCM inte ar ekvivalent med samma indexdelta for 

20 ADPCM med tre bitar, vilket vidare innebar att antalet bitar som bar anvants for att koda 
skalfaktorema maste skickas som sidoinformation till enveloppsdatat. Nackdelen ar att om 
enveloppsvardena alia kraver fa bitar utom ett som kraver manga kommer alia varden att kodas med 
det hogre antalet bitar, vilket kan bli ineffektivt. Altemativt kan kodningen goras med variabelt antal 
bitar pa skalfaktorbasis. Sddan kodning (utan T/F switchning) ar den vanliga inom deltakodning i 

25 audiokodare. Fordelen ar att varje sampel kodas endast med si minga bitar som kravs for att 

representera vardet. Anvands ADPCM-kodning maste tabellema goras kompatibla sa t.ex. indexdelta 
- 2 ar ekvivalent oavsett bur manga bitar som anvants att koda vardet med. Det ska dock beaktas att 
till detta maste en synkroniserande kodning adderas s^som Huffman for att mottagaren ska kunna 
tolka datat korrekt. Vidare ar inte alltid Huffman att foredra eftersom en sidan typ av 

30 redundanskodning forutsatter en viss statistisk fordelning av signalen som inte nodvandigtvis existerar. 
Startvardena som skickas nar deltakodning sker i frekvensled behover naturligtvis inte skickas da 
delta-kodningen sker i tidsled eftersom de redan ar tillgangliga i form av den foregiende enveloppen. 
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ADPCM-kodningen sasom anvand i den foreslagna algoritmen gor det mojJigt att koda med olika 
amp]ituduppIosning for olika frekvenser, eflersom algoritmen opererar pi kvantifierade tabelldata, och 
endast kodar tabellsteg, istallet for det verkliga datat. Detta innebar att precis som bandbredden kan 
okas for respektive skalfaktorband i forhallande till barkbandbredden kan aven amplitudupplosningen 
5 justeras efter orats frekvensupplosning. 

Den foreslagna algoritmen kraver att ytterligare si do in formation skickas tillsammans med den kodade 
enveloppen. Detta extradata bestar av en tid-frekvensflagga som signalerar i vilken riktning 
spektralcnveloppen har kodats, vidare niaste antal bitar eventuelll, som ovan beskrivits, aven skickas 
10 med. Detta extra data ar dock obet>'dligt i forhallande till den kodningvinst som algoritmen ger. 

Vid kodning av spektralenvelopper for SBR ar omstandighetema nigot armorlunda an for vanlig 
enveloppskodning. Den mottagna spektralreplikerade signalen har en formantstruktur och envelopp, 
skapad av transponeraren. Den mottagna enveloppen skall anvandas for att justera den befmtliga. Det 
15 ar da mojligt att utnyttja redundans mellan l^gbandet (hamtomradet) och hogbandet, dvs istallet for att 
deltakoda narliggande frekvenssampel kodas frekvenssamplema pa oktavbasis. 

En ideal SBR process skapar med manga transponeringsfaktorer ett stort antal harmoniska 
komponenter, och ger samma harmoniska densitet som originalet. Har beskrivs en metod att valja 
20 lampliga forstarkningar till de olika deltonsordningama. 



L^t insignalen vara en harmonisk serie 
25 x(0 = cos(2V;/) 

Vid en transponering en faktor 2 erh^lles 
y(0 = J]a.cosi2x27f.O 

1=0 

30 Som synes saknas varannan delton i ett pa detta vis skapat hogband. For att "fylla pa" med deltoner, 
summeras transponeringar med andra faktorer, t ex 3, 5, till andratonen enligt ovan. For att dra 
maximal nytta av multipla deltonsordningar ar det viktigt att de matchas val i niva sa att ingen 
dominerar over de andra (inom dverlappande frekvensomraden). En svarighet harvidlag ar att 
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signalnivSn kan variera starkt mellan de olika transponeramas kall-/hamtomraden. Dessa skillnader 
varierar dessutom mellan olika typer av programmaterial, varfor det ar svart att anvanda fasta 
fbrstarkningar for transponerama. En metod for nivaanpassning som tar hansyn till insignalens 
spektralfordelning i lagbandet framgar av fig. 6. Transponerarnas ulsignaler adderas och skickas till 
5 filterbanken for enveloppsjustering. Till denna summa laggs aven lagbandssignalen varvid 

filterbankens analyssida kan anvandas for spektralanalys aven av lagbandet. T ex kan totala effeklen 
inom respektive hamtomrade bestammas och transponerarforstarkningama justeras motsvarande. Det 
ar ocksa mojligt att estimera spektrallutningar och kompensera motsvarande fore filterbanken med t ex 
enkla filter av shelving-typ. Notera att detta forfarande inte paverkar filterbankens grundfunktion som 
10 equalizer och att lagbanddelen av analyssignalen inte skickas till filterbankens syntessida. 

Enligt resonemanget ovan innehaller det syntetiskt genererade hogbandet ibland hal i spektrat. 
Enveloppsjusteraren soker att justera den transponerade signalen sa att en likadan spektralenvelopp 
som originalets erhalles. Antag att original signal en har hog energi inom ett visst skalfaktorband och att 

15 den transponerade signalen uppvisar ett sadant spektralt hal i detta frekvensomrSde. Om 

forstarkningama tillats att variera fritt, kommer en mycket hog forstarkning att erhallas inom detta ^ 
band och brus eller signalrester att lyftas upp till originalsignalens niva. Detta fenomen kallas icke 
onskvard brussubstitution. Lit Pi ~ [Pii,...,/^in] vara originalsignalens skalfaktorer vid en viss tidpunkt 
och P2 = [p2],- -,P2n] <lcn transponerade signalens dito, dar varje element i vektorema representerar en 

20 subbandsenergi normerad m a p tid och firekvens. Erforderliga forstarkningsfaktorer i filterbanken for 
enveloppsjustering ges da av G = [gi,...,gN] = [sqrt(pii//72i sqrt(/7iN/>C2N)]- Genom att studera G, kan 
latt subband med brussubstitution identifieras; dessa kannetecknas av att motsvarande forstarkningar 
ar mycket hogre an ovriga subbands. Brussubstitution kan enkelt undvikas genom att forstarkningama 
limiteras, d v s tillates att variera fritt endast upp till ett visst maxvarde, gmax. Forstarkningama med 

25 "brusgrindar" ges alltsa av Ggate = [mm(gi,g^^^),.,.,min(gi,g^^)]. Detta uttryck illustrerar emellertid 
endast grundprincipen for brusgrindama. Eftersom originalenveloppen och den transponerade 
signalens envelopp kan skilja mycket i niva och lutning, kan inte fasta maxvarden gmax anvandas. 
Istallet beraknas en medel forstarkning och forstarkningama tillates att overskrida denna med en viss 
faktor. For att ta hansyn till storskaliga (bredbandiga) nivavariationer hos enveloppema, kan 

30 vektorema Pi och P2 delas in i segment, var och ett innehallande ett storre antal skalfaktorer, som 

behandlas individuellt enligt ovan. Pi detta satt kan en mycket effektiv grindfunktion erhillas utan att 
inskranka funktionen av nivSjusteringen av de subband som innehaller nyttosignaier. 

Som har beskrivits ovan, grupperas kodarens analyskanaler i frekvens enligt olika tabeller vid 
35 berakningen av skalfaktorer. Vaije sadan skalfaktor utg5r ett estimat av spektraltatheten inom det 
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frekvensband som spanns upp av de grupperade kanalema. For att erhalla sa ligt bitflode som mojligt 
vill man nalurligtvis minimera antalet skalfaktorer, varfor sa stora kanalgrupper som mojligt 
efterstravas. En vanlig losning inom audiokodning ar att anpassa skalfaktorbandbreddema efter en s k 
bark-skala, varvid horselsinnets i huvudsak logaritmiska frekvensupplosning utnyttjas. I en SBR- 
5 mottagares filterbank for enveloppsjustering kan, i likhet med traditionella kodare, en likadan 

gruppering av kanalema ske, att frekvensjustering sker med samma filterbandbredder som anvands 
vid skalfaktorgenerenngen. Emellertid kan kanalema i mottagarens filterbank tillatas operera 
individuellt genom att en skalfaktor per filterbankskanal interpoleras fram ur de mortagna 
skalfaktorema. Det enklaste sattet att gora detta, ar att tilldcla alia kanaler som ingick vid berakningen 

10 av en skalfaktor just detta varde. Den transponerade signalen analyseras varvid en skalfaktor per kanal 
beraknas. Dessa faktorer samt de interpolerade skalfaktorema fran original signalen anvands for att 
berakna kanal forstarkningar enligt ovan. Denna frekvensdomansinterpolering har tva fordelar. Den 
transponerade signalen har (som forklarats tidigare) i allmanhet ett glesare spektrum an originalet. En 
spektral utjamning fordras da och denna blir effektivare an om de forh^Uandevis stora 

15 skalfaktorbandbreddema anvands i equalizern. M a o, de syntetiskt genererade overtonema isoleras 
battre och kan styras mer individuellt mot onskad nivk inom ett visst frekvensomrade. Vidare blir 
funktionen hos brusgrinden battre, eftersom bmsgolvet kan isoleras och dampas med storre precision i 
frekvens. 

20 Skalfaktorer eller spektralenveloppsvarden estimeras i kodaren genom att berakna toppyardet i eller 
medelvardet over en matris i tid/frekvens-planet, dar de ing§ende vardena vanligtvis ar kvadrerade 
komplexvarda subbandssampel. Matrisemas kolumnantal beror pa aktuell tidsupplosning och 
radantalet beror pa aktuell frekvensupplosning. Bada dessa varden andras adaptivt beroende pk 
signalens statistik. Matriser med trader och m^nga kolumner (hog frekvensupplosning och lag 

25 tidsupplosning) anvands vid tonala fbrlopp, och motsatsen galler vid transienta passager. For att hoja 
kodningseffektiviteten ar oftast frekvensupplosningen pa nagot satt anpassad till den manskliga 
horselns. Frekvensupplosningar med nara konstant relativ bandbredd, s^som Mel- eller bark-relaterade 
upplosningar anvands darfor med fordel. Pa samma satt kan man ocksa l^ta tidsupplosningen varicra 
med frekvensen, med lagre tidsupplosning for lagre frekvenser. I bada dessa fall kan den 

30 underliggande frlterbanken vara baserad p^ Wavelet eller Famlet teknik, dar filterbankar med variabel 
tid/frekvens-upplosning kan erhSllas. 




35 



I avkodaren beraknas ph samma satt som i kodaren spektralenveloppsvarden over matrisema i 
tid/frekvens-planet. De ingaende vardena ar nu subbandssampel erhallna fran det SBR-replikerade 
frekvensomradet. Avkodaren beraknar forh^llandet mellan de i kodaren och avkodaren estimerade 
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skalfaktorema och applicerar dessa forstarkningsfaktorer pa subbandssamplen for att pa sa satt justera 
spektralenveloppen for det SBR-replikerade frekvensomradet. Stora skillnader mellan narliggande 
forstarkjiingsfaktorer, i bade tid och frekvens, kan resultera i ringning och vikning i den justerande 
filterbanken. Det ar da fbrdelaktigt att gora dessa sprang mindre skarpa genom utjamning av 
5 forstarkningsfaktorema. Fig.7a visar forstarkningsfaktorer som skall multipliceras med motsvarande 
subbandsampler. I figuren ses att tva hogupplosande block foljs av tv^ ligupplosande och ett 
hogupplosande, och aven att bandbredden pa skalfaktorbanden okar exponentiellt med okande 
frekvens. De skarpa sprangen i fig. 7a ar eliminerade i fig 7b genom filterering av 
forstarkningsfaktorema i Mdc tid- och firekvensled med ett lagpassfilter. Det ar viktigt att skarpa 
10 flanker i tid harrorande fr^n de korta lagupplosande blocken inte undertrycks alltfor mycket, da detta 
skulle forsamra det SBR-replikerade omrSdets transientenergi. Detsamma galler for filtreringen i 
frekvensled over de hogupplosande langa blocken, di en alltfor tillplattad envelopp leder till en 
bristfallig formantstruktur. I fig 7b ar filtreringen medvetet overdriven. 

15 I patentansokan SV Pat. 9800268-6 och PCX Pat. WO 98/57436 beskrivs hur transponering kan 

utforas m h a filterbanker (t ex STFT eller MDCT) genom att ansluta analyskanaler till synteskanaler 
pa ett nytt satt. En s^dan mappning av kanaler gavs dar namnet "patch". Som framgar av figuren, har 
patchema for transponering det gemensamt att synteskanaler lamnas utan insignal. Transponeringen 
blir exakt endast for en diskret frekvens inom varje analyskanals passband. 1 patentansokan # beskrevs 

20 hur fasen hos de komplexvarda subbandssignalema som ing^ i patchen kan modifieras sa att 
transponeringen blir exakt for insignaler med godtycklig frekvens (inom det frekvensomrade 
transponeraren har dimensionerats for). En transponering enligt detta kan ses som en process i tva steg 
dar patchen star for en grovskalig, approximativ transponering och blocken P kan ses som lokala 
transponerare som opererar pa de ligfrekventa bandpasssignalema. Denna lokala transponering 

25 fungerar endast da varje analyskanal innehaller hogst en diskret frekvens. Om insignalen ar en dirac- 
puls ges analyssignalema av impulsresponsen hos filterbankens prototypfilter. Denna typ av signal kan 
inte transponeras (bandbreddsutokas) lokalt av P-blocken och utsignalen far for- och efterekon, 
eftersom impulsresponser fattas vid syntesen. 1 patentansokan SV Pat. 9800268-6 och PCX Pat. WO 
98/57436 foreslogs ett antal metoder att komma runt detta problem, men har visas en ny metod: 

30 

I fig 8a visas symboliskt frekvensdomansrepresentationen av analys- och syntes signal en for en patch 
da insignalen ar en dirac-puls och transformstorleken ar M. Antag att syntesen normalt opererar pa 
segment om L sampler. Istallet bildas ett nytt segment med langden 2L dar samma L sampler som 
tidigare ingar och resten utgors av nollor. Detta fbrfarande ar vanligt vid spektralestimering och 
35 benamns nollpaddning. Segmentet med langden 2L transformeras med en 2//-transform vilket 
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resulterar i en frekvensdomansrepresentation som ar tva ganger oversamplad i frekvens. Det ar viktigt 
att notera att en dylik frekvensdomansoversampling inte okar frekvensuppldsningen hos analysen, utan 
endast motsvarar en tatare evaluering av transformen. I fig 8b visas analys- och syntessignalema vid 
nollpaddning. Vid analyssignalen foreligger som synes overlappning vilken "dras isar" av patchen, 
5 varfor det vid syntes finns en komplett uppsattning impulssvar, trots att varannan synteskanal alltjamt 
saknar insignaL Eftersom hela utfrekvensinter\'allet spanns upp av dessa impulssvar, forekommer inte 
langre nagra for- eller efterekon. 



10 



Metoden att oversampla i frekvens kan generaliseras till andra transponenngsfaktorer an tvi. Vid en 
transponering M fordras aven en oversamplingsfaktor M. Vid fallet STFT kan vid oversampling M 
ganger alia transponeringar till och med Merhallas utan ekon, d v s fyra gangers oversampling medger 
samtidig generering av tv^, tre och fyra gangers transponering om sk onskas. Det skall papekas att 
dverlappningen i frekvens hos analyskanalema inte inverkar pS funktionen hos P-blocken. En och 
samma frekvenskomponent hos insignalen finns p§ detta satt representerad i tvi eller flera 
15 analyskanaler, men P-blocken och patchen sakerstaller att dessa olika instanser hamnar samma 
utfrekvens. 



1 en filterbanksimplementation multipliceras insignalen analyssidan pa vanligt satt med ett fonster 
(prototypfilter) som flyttas ett visst antal sampel mellan varje multiplikation, fig. 9. Vid kritisk 

20 sampling flyttas fonstret typiskt L/M sampel, dar L ar antalet kanaler eller frekvenskoefficienter och M 
ar transponeringsfaktom. Ett fonstrat block om 2L sampel paddas darefter med 2(M-1)L nollsampel 
dar halften av dessa laggs p& fore respektive efter de fonstrade samplen. Dessa 2ML sampel 
komplexmoduleras och genererar salunda ML frekvenskoefficienter. Denna filterbank ar alltsa 
oversamplad i frekvens med en faktor M. Pa syntessidan demoduleras de ML frekvenskoefficientema 

25 och de forsta respektive sista (M-l)L samplen kasseras. 



Frekvensdomanstransponeringsalgoritmema som presenterades som exempel i SV Pat. 9800268-6 och 
PCT Pat. WO 98/57436, byggde pa anvandandet av filterbankar eller transformer med konstanta 
bandbredder. For att tillata awagningar mellan olika tid- och frekvensupplosningar kan filterbankar 

30 eller transformer med variabla bandbredder istallet anvandas. For fbrbattrade transientegenskaper 
fbresi^s nu en transponerare baserad pa "Wavelet packets". Wavelet packets kan betraktas som 
traduppdelade ortonormala filterbankar med godtycklig struktur. I transponeraren anvands 
komplexvarda Wavelets och "scaling functions". Med den godtyckliga uppdelningen kan filterbankar 
med oktavbandsindelning eller andra filterbankar med variabel bandbredd konstrueras. I fig. 10 visas 

35 en transponeringspatch for en filterbank med konstant bandbredd jamfbrt med patchen for en 
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filterbank med variabel (oktavbands) upplosning. De fillerband som bar storre bandbredd samplas 
oftare an de med mindre bredd, varfor de forstnamda bar battre tidsupplosning. Traduppdelningen kan 
antingen vara statisk eller bestammas adaptivt under gang, baserat pa en s k "best-base" algoritm. En 
typisk struktur for tid/frekvens-uppdelningen i en statisk Wavelet-packet-transponerare visas i fig. 11. 
5 De streckade blocken visar exciterade subband for ett kortvarigt transient stimuli. Den minskande 
frekvensupplosningen for hogre frekvenser bidrar till transponerarens goda tidsegenskaper. For lagre 
frekvenser garanterar en hog frekvensupplosning god kvalitet pa transponermgen av tonala signaler. 



Det gar att kombinera SBR-tekniken med parametriska analys- och syntesmetoder sasom 
10 sinusodialkodning. I dessa fall anvands pitch -detektering i dekodem for att styra tongeneratorer. 
Noggrann estimering av pitchen ar viktig for att undvika dissonans. Detta forfarande inom SBR- 
tekniken kallas harmonisk substitution och ar ett nytt satt att anvanda sinus-analys/syntes tekniken. I 
de fall fas-komponenten varieras slumpmassigt hos syntesgeneratom kan denna teknik aven anvandas 
for att ersatta smalbandiga bruskomponenter, tex hos transienter. 

15 

Som papekats ovan bor spektral enveloppen som skickas till det med SBR aterskapade 
frekvensomradet, betraktas som ett sorts styrdata snarare an en vanlig spektral envelopp. Dctta 
inbjuder till att i kodaren gora analys-genom-syntes av spektral enveloppen ur ett SBR perspektiv. 
Enveloppsstyrdatan kan da optimeras sa att det SBR-replikerade frekvensomradet efterliknar originalet 
20 da styrdatan appliceras. Detta gor att istallet for att koda hela hogbandsenveloppen sa exakt som 
mojligt kan justeringssignalen kodas mer optimalt eftersom man dk utnyttjar eventuell redundans 
mellan hogbandets och ISgbandets envelopp. 



Det har nyligen framforts onskemal inom digital rundradio om att kunna sanda i stereo p^ digitala 
25 AM-bandet. Bitflodet ar sa l^gt i dessa tillampningar att audiosignalen m^ste nedsamplas till l^g 

audiobandbredd. Vid stereokodning anvands med fordel M/S-formatet dvs summa/differans kodning. 
Darvid kodas summasignalen respektive differenssignalen separat. Differensignalen, vilken innehSller 
mindre information an summasignalen, kodas med farre bitar an summasignalen. Differenssignalen 
kan aven kodas med lagre kvalitet dd den framst innehaller "ambiens" och "stereopanorama". Samma 
30 forfarande kan tillgripas vid intensitetsstereokodning. Har kodas subbandsamplema i mono medan 
skalfaklorema kodas i stereo. Av bitkostnadsskal kan det vara nodvandigt att endast overfora SBR- 
enveloppen i mono. Detta innebar att det replikerade hogbandet ar i mono, vilket ar godtagbart da det 
manskliga riktningshorandet ar begransat vid hogre frekvenser, fig. 12. 
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For an fbrbattra kodningseffektiviteten och ljudkvaliteten hos differenskodaren kan differenssignalen 
hogpassfiltreras. Hogpassfiltrenngen medger art fler bitar kan allokeras av kodaren till mellanregistret. 
Vid inspelning av program panoreras bas-information tex basgilarr och bastrumma oftast till mitten av 
stereopanoramat. Vidare har horselsinnet \kg riktningsdiskriminering vid l^ga frekvenser varfor det 
5 pSverkar programmalerialet minimalt da differanssignalen hogpassfiltreras. Basinformationen overtors 
i stallet i den summakodade kanalen, fig. 13. 

En forbattring av stereo-intrycket erhalles da SBR signalen leds genom en ambiensenhet iiknande den 
som beskrivs i SV Pat, 9800268-6 och PCT Pat. WO 98/57436. En ny ambiensenhet for att forbattra 
10 upplevd ljudkvalitet beskrivs har. I denna kravs endast en fordrojningsledning, dessutom blir enheten 
monokompatibel vilket ar onskvart i rundradiosammanhang. Den hogfrekventa SBR-signalen erhaller 
bredd och ambiens. Detta forfarande fungerar lika val vid bandbreddsbegransad intensitetsstereo, tig 
14. 

15 Ett intressant altemativ till ovanstSende ar att anvanda tva SBR-transponerare for att oka bandbredden 
vid M/S eller intensitetsstereo. Harvid tappas respektive kanal av pa (L och R) information och leds till 
respektive SBR-transponerare. Darefter adderas SBR-signalema till respektive kanal (L och R) for att 
erhalla okad skillnad mellan L och R varvid SBR-signalen justeras av summa-enveloppen (L+R). 
Aven i detta fall kan ambiensenheten anvandas. For minskad berakningskomplexitet kan en SBR 

20 transponerarenhet anvandas pa mono signalen, varefter hogbandet justeras individuellt for de tv^ 

kanalema, s§ att skillnaden i hogbandets spektralenvelopper mellan de tv^ kanaiema, ar proportionell 
mot skillnaden i ligbandets spektralenvelopp. 

Apparatbeskrivning 

25 I fig. 15 visas kodningssidan av den foreslagna uppfinningen. En analys gors pi den bredbandiga 
insignalen varvid spektralenveloppsdata vid ekvidistanta tidpunkter genereras. En transientdetektor 
skickar sedan styrdata till skalfaktorgenereringsmodulen som med hjalp av ^terkoppling frin en 
inbyggd SBR-avkodare producerar en icke-uniformt samplad skalfaktorrepresentation av 
spektralenvelopper. Dessa kodas med T/F-kodning och multiplexas in i bitstrommen tillsammans med 

30 bitstrommen fran den psykoakustiska kodaren och diverse styrdata. 

I fig 6 visas avkodningsidan av den foreslagna uppfinningen. Det mottagna enveloppsdatat avkodas 
med hjalp av styrdata. Den av ljudkodaren avkodade Lp-signalen uppsamplas och transponeras. 
Transponerama anvander i vissa fall styrdata fran kodaren (TD-transponeraren SV Pat. 9800268-6 och 
35 PCT Pat. WO 98/57436) eller oversampling i frekvens. Spektralenveloppsdatat interpoleras och 
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brusgrindning utfors mha det SBR-replikerade hogbandet. Det skall poangteras att 
spektralenveloppsdatat inte nodvandigtvis skickats fran kodaren utan kan ha estimerats vid avkodaren. 
Det rcplikcrade hogbandet justeras och en bredbandssignal kommer ut. 

5 PATENTKRAV 

1. Forfarande for bitflodesreduktion vid overforing av spektralenveloppinformation fran en sandare till 
en mottagare, kannetecknat av gruppering av subbandssampler i grupper om T sampler i tid och 
F sampler i frekvcns vid generering av skalfaktorer fbr enveloppskodning. I kodaren finns en 

10 transientdetektor med vars hjalp transienters positioner faststalls. I omedelbar anslutning till 

transientens start, piborjas en ny grupp med ett litet varde pa T. Denna foljs av ytterligare en eller flera 
grupper med sm^ vSrden T. Skalfaktorema sammanfors till granuler vilka sands med en konstant 
uppdateringsfrekvens. Transientemas starttidpunkter beskrivs med ett index som anger positionema 
inom dessa granuler. Sandare och mottagare forfogar over regler som beskriver hur grupperingen skall 

1 5 ske vid ett givet index, racker det att skicka detta index samt en transientflagga tor en entydig 
avkodning av enveloppen. 

2. Forfarande enligt krav 1, kannetecknat avatt spektralenveloppinformationen kodas vaxelvis i 
tidsled och frekvensled. 

20 

3. Forfarande enligt krav 1, kannetecknat aven metod att utnyttja enveloppsjusterarens analyssida 
for adaptiv nivajustering mellan de olika deltonsordningama beskrivs. 

4 Forfarande enligt krav 1, kannetecknat avatt brusgrindar eliminerar icke onskvart smalbandigt 
25 bras genom att begransningar for enveloppsjusterarens forstarkningsfaktorer infers 

5. Forfarande enligt krav 1, kannetecknat av att skalfaktorema interpoleras i frekvens och 
enveloppsjusteringen opererar med dessa smalare bandbredder. 

30 6. Forfarande enligt krav 1, kannetecknat av en frekvensdomanstransponeringsalgoritm baserad 
pa anvandandet av filterbankar eller transformer med variabla bandbredder. 

7. Forfarande enligt krav 1, kannetecknat av en forstarkningsfaktorsutjamning for att undvika 
ringning och vikning i filterbanken som anvands for enveloppsjustering. 



35 




19 

8. Forfarande enligt krav 1, kannetecknat av ett satt att minimera for- och efterekon hos 
frekvensdomanstransponerare, m h a oversampling i frekvensdomanen. 



9. Forfarande enligt krav 1, kannetecknat avatt SBR i enbart summa signal en (L+R) vid 
5 sum/diff- alt intensitets-stereo anvands. ^ 



10. Forfarande enligt krav 1. kannetecknat av att SBR pseudo-stereo enhancement i enbart 
summasignalen (L+R) vid sum/diff- alt intensitets-stereo anvands. 



10 



11. Forfarande enligt krav 1, kannetecknat av att SBR aktiv panorama-stereo enhancement i 
enbart summasignalen (L+R) vid sum/diff- alt intensitets-stereo anvands. 




1 

Sanimandrag 

5 



10 

METOD OCH ANORDNING FOR FORB ATTRING AV EFFEKTIVITET OCH LJUDKVALITET 
HQS LJUDKODARE 



15 
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Foreliggande uppfinning beskriver metoder och teknik for forbattring av kodningseffektivitet och 
ljudkvalitet hos ljudkodare, speciellt sadana som anvander SBR-teknik (Spectral Band Replication, en 
ny teknik som utnyttjar spektralredundans hos ett exitationsspektrum). Ljudkodare overfdr 
spektralenveloppsinformation, fran kodarcn till avkodaren. Foreliggande uppfinning beskriver ett nytt 
30 forfarande att koda och justera spektralenveloppen p^ ett effektivt satt vilket aven ar lampat for 
tillampningar av SBR-tekniken. Vidare beskrivs nya tekniker, metoder och forbattringar i de 
tillampningar dar SBR-teknikens utnyttjas. Uppfinningen kan anvandas inom valfria ljudkodare samt 
till olika former av talkodare och vid konstruktion av nya kodare. Tekniken implementeras i h^rd- eller 
mjukvara. Forbattring av kodningstekniken innebar reducerat bitflode och forbattrad IjudkvaHtet. 
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Ekvidistant uppdatering av 
f [kHz] enveloppen 




Tidpunkter for 
skalfaktorgenerering 



Variabel uppdatering av 
f [kHz] enveloppen 




t[s] 



Tidpunkter for 
skalfaktorgenerering 



mderblock 
index: 4 



-3 



0 1 



block n-1 



transient 
position 

index: 0 1 2 3 



block n 

(a) 



4 5 6 7 



0 12 3 



block n+1 



4 5 6 7 





transient 



Foregaende 
transient position: 2, 
nuvarande transient 
position: 6 
ger foljande tid/ 
frekvens-indelning 
av block n ur tabell: 



block n-1 



transient block n 



(b) 



underblock 
innehallande 
transient 



Lag 

frekvensupplosning 




Lag 

frekvensupplosning 



(c) 



/ 



skalfaktorer / 



kodnings-loop 



Koda enveloppen i 

tid resp. 
frekvensdomanen 



Okat antalet bitar 



Avkoda 
enveloppen 



berSkna 
kodningsfelet 





Kodning gOrs j bade tid och 
frekvens, vid kodning i 
tidsdonnanen anvands 
fOregdende envelopp som 
startv3rden 



Den kodade 
spektralenveloppen avkodas, 
fdr att kunna avgdra i vilken 
domdn enveloppen slutligen 
skall kodas 



Spektraldistorsionen kan 
berSknas p^ flera satt. medel 
fe) eller t.ex. maxfel 



^ Skicka enveloppen, domanflagga N 
samt 

eventuellt startvarde 



1=16- ^ 
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